Viitorul inteligenței artificiale e aici: cercetătorii de la Google au generat videoclipuri dintr-un singur cadru

de: Ozana Mazilu
18 08. 2022

Rețeaua neurală DeepMind de la Google a demonstrat că poate face videoclipuri scurte dintr-un singur cadru de imagine și este foarte interesant să vezi cum funcționează.

După cum a remarcat DeepMind pe Twitter, modelul de inteligență artificială, denumit „Transframer” „excelează în predicția video și sinteza vizualizării” și este capabil să „genereze videoclipuri de 30 de secunde dintr-o singură imagine”.

Cu ce se mai joacă Google

Așadar, modelul AI își realizează videoclipurile în perspectivă, prezicând împrejurimile imaginilor țintă cu „imagini de context”. Pe scurt, ghicind corect cum ar arăta unul dintre scaunele de mai jos din diferite perspective, pe baza unor date extinse care-ți permit să-ți „imaginezi” un obiect real dintr-un alt unghi.

Acest model este deosebit de impresionant, deoarece pare să fie capabil să aplice percepția și perspectiva artificială pentru a genera cum ar arăta imaginea dacă cineva s-ar „mișca” în jurul ei, crescând astfel posibilitatea creării jocurilor video întregi bazate pe tehnologia de învățare automată, în loc de redare tradițională.

Mai mult, un utilizator de Twitter a spus deja că intenționează să folosească Transframer împreună cu rezultate ale algoritmului de generare a imaginii DALL-E al OpenAI – un exemplu foarte grozav al tipului de acțiune AI-on-AI pe care probabil o vom vedea mult mai mult în anii următori.

Programul DALL-E 2 de la OpenAI produce imagini fantastice cu aproape orice îți poți imagina: cum funcționează

În ianuarie 2021, compania OpenAI fondată de Elon Musk și susținută financiar de Microsoft și-a dezvăluit cel mai ambițios proiect de până acum, sistemul de învățare automată DALL-E.

Această inteligență artificială multimodală ingenioasă a fost capabilă să genereze imagini (deși, mai degrabă, de desene animate) pe baza atributelor descrise de un utilizator. Gândește-te la „o pisică făcută din sushi” sau „o radiografie a unui Capybara așezat într-o pădure”. Recent, compania a dezvăluit următoarea iterație a lui DALL-E, care are o rezoluție mai mare și o latență mai mică decât originalul.

Primul DALL-E ar putea genera imagini, precum și combina mai multe imagini într-un colaj, oferind unghiuri de perspectivă diferite. Poate chiar să deducă elemente ale unei imagini — cum ar fi efectele de umbră — din descriere. Poți să vezi mai multe aici.